尽管近年来在多机构增强学习(MARL)方面取得了重大进展,但复杂领域的协调仍然是一个挑战。 MARL的工作通常专注于解决代理与环境中所有其他代理和实体互动的任务;但是,我们观察到现实世界任务通常由几个局部代理相互作用(子任务)的几个隔离实例组成,并且每个代理都可以有意义地专注于一个子任务,以排除环境中其他所有内容。在这些综合任务中,成功的策略通常可以分解为两个决策级别:代理人分配给特定的子任务,并且每个代理人仅针对其指定的子任务有效地采取行动。这种分解的决策提供了强烈的结构感应偏见,大大降低了代理观察空间,并鼓励在训练期间重复使用和组成子任务特异性策略,而不是将子任务的每个新组成视为独特的。我们介绍了ALMA,这是一种利用这些结构化任务的一般学习方法。阿尔玛同时学习高级子任务分配策略和低级代理政策。我们证明,阿尔玛(Alma)在许多具有挑战性的环境中学习了复杂的协调行为,表现优于强大的基准。 Alma的模块化还使其能够更好地概括为新的环境配置。最后,我们发现,尽管ALMA可以整合受过训练的分配和行动策略,但最佳性能仅通过共同训练所有组件才能获得。我们的代码可从https://github.com/shariqiqbal2810/alma获得
translated by 谷歌翻译
在多人2D姿势估计中,自下而上的方法同时预测了所有人的姿势,与自上而下的方法不同,不依赖于人类的检测。但是,与现有的自上而下方法相比,SOTA自下而上的方法的精度仍然不如较低。这是由于预测的人类姿势是根据不一致的人类边界箱中心进行回归的,并且缺乏人类规范的正常化,从而导致预测的人类姿势被遗漏了不准确和小规模的人。为了推动自下而上的姿势估计的信封,我们首先提出了多尺度训练,以增强网络以通过单尺度测试来处理规模变化,尤其是对于小规模的人。其次,我们介绍了双解剖中心(即头部和身体),在这里我们可以更准确,可靠地预测人类的姿势,尤其是对于小规模的人。此外,现有的自下而上方法采用多尺度测试来以多个额外的前向通行证的价格提高姿势估计的准确性,这削弱了自下而上方法的效率,与自上而下的方法相比,核心强度。相比之下,我们的多尺度训练使该模型能够预测单个前向通行证(即单尺度测试)中的高质量姿势。我们的方法在边界框的精度方面取得了38.4 \%的改进,在边界框上进行了39.1 \%的改进,以对可可的具有挑战性的小规模人群进行对现状(SOTA)的回忆(SOTA)。对于人类姿势AP评估,我们在带有单尺度测试的可可测试-DEV集中实现了新的SOTA(71.0 AP)。我们还在跨数据库评估中在Ochuman数据集上实现了最高的性能(40.3 AP)。
translated by 谷歌翻译
夜间图像不仅遭受弱光,而且遭受光线分布不均匀的影响。大多数现有的夜间可见性增强方法主要集中在增强弱光区域。这不可避免地会导致明亮区域的过度增强和饱和度,例如受光效应(眩光,泛光灯等)影响的区域。为了解决这个问题,我们需要抑制明亮区域的光效应,同时促进黑暗区域的强度。考虑到这个想法,我们引入了一种无监督的方法,该方法集成了层分解网络和光效应抑制网络。给定单夜图像作为输入,我们的分解网络学会了分解阴影,反射率和光效应层,并在无监督的特定层特定的先前损失的指导下。我们的光效应抑制网络进一步抑制了光效应,同时增强了黑暗区域的照明。该光效应抑制网络利用了估计的光效应层,作为专注于光效应区域的指导。为了恢复背景细节并减少幻觉/人工制品,我们提出了结构和高频一致性损失。我们对真实图像的定量和定性评估表明,我们的方法在抑制夜光效应和提高黑暗区域的强度方面优于最先进的方法。
translated by 谷歌翻译
从单个图像中删除阴影通常仍然是一个开放的问题。大多数现有的基于学习的方法都使用监督的学习,并需要大量的配对图像(阴影和相应的非阴影图像)进行培训。最近的无监督方法,面具 - 饰面方法解决了这一限制。但是,它需要二进制掩码来表示阴影区域,从而使其不适合柔软的阴影。为了解决这个问题,在本文中,我们提出了一个无监督的域分类器引导删除网络DC-Shadownet。具体而言,我们建议将无阴影/无阴影域分类器集成到发电机及其歧视器中,从而使它们能够专注于阴影区域。为了训练我们的网络,我们引入了基于基于物理的无阴影色彩,阴影的感知特征和边界平滑度的新颖损失。此外,我们表明我们的无监督网络可用于测试时间培训,以进一步改善结果。我们的实验表明,所有这些新型组件允许我们的方法处理柔和的阴影,并且比现有的最新阴影去除方法在定量和定性上都能在硬阴影上表现更好。
translated by 谷歌翻译
我们提出了一种雷达惯性内径测量的方法,其使用连续时间框架来熔断来自多个汽车雷达的熔丝测量和惯性测量单元(IMU)。不利的天气条件对雷达传感器的操作性能不同,与相机和激光器传感器不同,对雷达传感器的操作性能没有显着影响。雷达在这种情况下的鲁棒性和乘客车辆雷达的普遍普遍激励我们来看看雷达用于自我运动估计。连续时间轨迹表示不仅应用于实现异构和异步多传感器融合的框架,还应用于通过能够计算封闭形式的姿势及其衍生物来实现高效优化,并且在任何特定时间沿着弹道。我们将我们的连续时间估计与来自离散时间雷达 - 惯性内径型方法的方法进行比较,并表明我们的连续时间方法优于离散时间方法。据我们所知,这是第一次将连续时间框架应用于雷达惯性内径术。
translated by 谷歌翻译